Chain of Thought (CoT)論文
https://scrapbox.io/files/657bb324f975e400250690e5.png
論文情報
タイトル:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
著者:Jason Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter Fei Xia Ed H. Chi Quoc V. Le Denny Zhou
所属:Google Research, Brain Team
発行日:2022年1月
論文のポイント
言語モデルのスケールを増やしても大きく改善されない。
https://scrapbox.io/files/65c38d532eca1000248fce10.png
https://scrapbox.io/files/65c38dc0267786002452ba66.png
https://scrapbox.io/files/65c3915f6e05e8002431a2e4.png
https://scrapbox.io/files/65c3919ea30d270025ca4361.png
https://scrapbox.io/files/65c428047dcc4d00236d99aa.png
一方で、GPT-3では、常識推論タスクでは効果がなかった https://scrapbox.io/files/65c427592abe370026b8ecba.png
概要
私たちは、一連の中間推論ステップである思考の連鎖を生成することが、大規模言語モデルが複雑な推論を行う能力を大幅に向上させる方法を探求します。特に、十分に大きな言語モデルでは、いくつかの思考の連鎖の実例をプロンプトとして提供するというシンプルな方法である「思考の連鎖プロンプト」によって、そのような推論能力が自然に現れることを示します。
三つの大規模言語モデルに関する実験では、算数、常識、記号的推論の課題において、思考の連鎖プロンプトがパフォーマンスを向上させることが示されました。実証的な利益は目覚ましいものがあります。例えば、わずか8つの思考の連鎖の実例でPaLM 540Bをプロンプトすると、数学の言葉の問題に関するGSM8Kベンチマークで最先端の精度を達成し、検証機能を備えたファインチューニングされたGPT-3をも上回ります。 はじめに
自然言語処理(NLP)の分野は、最近、言語モデルによって革命的な変化を遂げました。言語モデルのサイズを大きくすることは、パフォーマンスの向上やサンプル効率の改善など、様々な利点をもたらすことが示されています。しかし、モデルサイズを大きくするだけでは、算数、常識、記号推論などの難しいタスクでの高いパフォーマンスを達成するには十分ではありませんでした。 本研究では、大規模言語モデルの推論能力を解放するためのシンプルな方法を探求しています。この方法は二つのアイデアによって動機付けられています。まず、算数推論技術は、最終回答に至る自然言語の根拠を生成することから利益を得ることができます。以前の研究では、ゼロからトレーニングするか、事前トレーニングされたモデルを微調整することにより、モデルが自然言語の中間ステップを生成する能力を与えていました。また、自然言語の代わりに形式言語を使用するニューロシンボリックメソッドもあります。次に、大規模言語モデルは、プロンプトによるFew-Shot学習の可能性を提供しています。つまり、新しいタスクごとに別の言語モデルチェックポイントを微調整する代わりに、モデルにタスクを示す数個の入出力例を提示するだけです。驚くべきことに、これは簡単な質問応答タスクで成功しています。 しかし、これらのアイデアには重要な制限があります。根拠付けトレーニングと微調整の方法では、通常の機械学習で使用される単純な入出力ペアよりも、大量の高品質な根拠を作成するのが費用がかかります。Brown et al.(2020)で使用された伝統的なFew-Shotプロンプトは、推論能力が必要なタスクではうまく機能せず、言語モデルのスケールを増やしても大きく改善されないことが多いです。本論文では、これら二つのアイデアの強みを組み合わせ、それらの制限を避ける方法を探ります。具体的には、次のようなプロンプトで推論タスクのためのFew-Shotプロンプトを言語モデルが実行できるかを検討します: 「入力、思考の連鎖、出力」の三つ組。思考の連鎖とは、最終出力に至る自然言語の中間推論ステップのシリーズであり、このアプローチをCoT (Chain-of-Thought)プロンプトと呼びます。Figure 1に例のプロンプトが示されています。 https://scrapbox.io/files/659f6029d8892600239e78fb.png
我々は、算数、常識、シンボリック推論のベンチマークで実証評価を行い、CoT (Chain-of-Thought)プロンプトが標準的なプロンプトよりも優れていることを示し、場合によっては顕著な程度になっています。Figure 2はそのような結果を示しており、数学の言葉の問題のGSM8Kベンチマークで、PaLM 540Bを使った思考の連鎖プロンプトが標準的なプロンプトを大きな差で上回り、新たな最先端のパフォーマンスを達成しています。 https://scrapbox.io/files/659f60552b49ee0023d7c070.png
プロンプトのみのアプローチは重要であり、大規模なトレーニングデータセットを必要とせず、単一のモデルチェックポイントで多くのタスクを一般性を失うことなく実行できるためです。この研究は、大規模な言語モデルが自然言語データを用いてタスクについてのいくつかの例を学ぶことができる方法(例えば、大規模なトレーニングデータセットを通じて入力と出力のパターンを自動的に学ぶのではなく)を強調しています。
CoTプロンプト
複雑な推論タスク、例えば多段階の数学の言葉の問題を解く際の自分自身の思考プロセスを考えてみましょう。問題を中間ステップに分解し、最終回答を出す前にそれぞれを解決するのが一般的です:「ジェーンがお母さんに2つの花をあげた後、彼女は10個持っています...その後、お父さんに3つをあげたら、彼女は7個持っているでしょう...だから答えは7です。」この論文の目的は、言語モデルに問題に対する最終回答に至るまでの、一貫した中間推論ステップのシリーズである同様の思考の連鎖を生成する能力を与えることです。我々は、十分に大きな言語モデルが、Few-Shotプロンプトの例示で思考の連鎖推論のデモンストレーションが提供された場合、思考の連鎖を生成できることを示します。 Figure.1は、モデルが数学の言葉の問題を解決するために思考の連鎖を生成する例を示しており、それ以外では間違っていたであろう問題です。この場合の思考の連鎖は解決策に似ており、解決策として解釈できますが、我々はそれを思考の連鎖と呼ぶことを選択しました。これは、答えに至るまでのステップ・バイ・ステップの思考プロセスを模倣するというアイデアをよりよく捉えるためです。
思考の連鎖プロンプトには、言語モデルで推論を容易にするアプローチとして、いくつかの魅力的な特性があります。
1. まず、原理的には、思考の連鎖によりモデルは多段階の問題を中間ステップに分解できるため、より多くの推論ステップが必要な問題に追加の計算を割り当てることができます。
2. 次に、思考の連鎖は、モデルの動作を解釈可能な形で示し、特定の答えにどのようにたどり着いたかを示唆し、推論の道筋がどこで間違ったかをデバッグする機会を提供します(ただし、答えをサポートするモデルの計算を完全に特徴づけることは未解決の問題のままです)。
3. 第三に、思考の連鎖推論は、数学の言葉の問題、常識推論、記号操作などのタスクに使用でき、少なくとも原理的には、人間が言語を介して解決できる任意のタスクに適用可能です。
4. 最後に、十分に大きな既製の言語モデルでは、思考の連鎖シーケンスの例をFew-Shotプロンプトの例示に含めることにより、思考の連鎖推論を容易に引き出すことができます。 実証実験では、算数推論(セクション3)、常識推論(セクション4)、およびシンボリック推論(セクション5)に対する思考の連鎖プロンプトの有用性を観察します。
3 算数推論
我々は、Figure 1に示された形式の数学の言葉の問題から始め、これは言語モデルの算数推論能力を測定します。人間にとっては単純なものの、算数推論は言語モデルがしばしば苦戦するタスクです。驚くべきことに、540Bパラメーター言語モデルを用いた思考の連鎖プロンプトは、いくつかのタスクにおいてタスク特化の微調整モデルと同等のパフォーマンスを示し、難しいGSM8Kベンチマークでは最先端モデルを凌駕をしました。 3.1 実験セットアップ
我々は、様々な言語モデルにおいて、複数のベンチマークで思考の連鎖プロンプトを探求します。
ベンチマーク
我々は、以下の5つの数学の言葉の問題ベンチマークを考慮します:(1) GSM8Kの数学の言葉の問題ベンチマーク、(2) 変化する構造を持つ数学の言葉の問題のSVAMPデータセット、(3) 多様な数学の言葉の問題のASDivデータセット、(4) 代数の言葉の問題のAQuAデータセット、および(5) MAWPSベンチマーク。例題は以下の通りです。 https://scrapbox.io/files/659f6e43be90d80023ebd17d.png
標準的なプロンプト。
ベースラインとして、我々はBrown et al.(2020)によって普及した標準的なFew-Shotプロンプトを考慮します。これは、言語モデルにテスト時の例の予測を出力する前に、入出力ペアの文脈内の例示を与えるものです。例示は質問と回答としてフォーマットされています。 思考の連鎖プロンプト。
我々の提案するアプローチは、関連する回答に対して少数ショットプロンプトの各例示に思考の連鎖を追加することです。ほとんどのデータセットが評価スプリットのみを持っているため、我々は手動でプロンプト用の8つの少数ショット例示と思考の連鎖を構成しました。この形式での思考の連鎖プロンプトが、様々な数学の言葉の問題に対して成功した推論を引き出せるかを調査するために、我々はこれらのベンチマークすべてに対してこの1セットの8つの思考の連鎖例示を使用しました。ただし、AQuAは自由回答ではなく選択肢形式なので、付録の表21に示されているトレーニングセットからの4つの例示と解決策を使用しました。
言語モデル。我々は5つの大規模言語モデルを評価しました。最初のものはGPT-3であり、我々はtext-ada-001、text-babbage-001、text-curie-001、およびtext-davinci-002を使用しました。これらは、それぞれ350M、1.3B、6.7B、および175BパラメーターのInstructGPTモデルに対応していると思われます。二番目はLaMDAで、422M、2B、8B、68B、137Bパラメーターのモデルがあります。第三のものはPaLMで、8B、62B、540Bパラメーターのモデルがあります。第四はUL2 20B、第五はCodexです。我々はモデルから貪欲なデコーディング戦略を介してサンプリングしましたが(ただし、後続の研究では、多くのサンプリングされた生成の最終回答の多数決によって思考の連鎖プロンプトが改善されることが示されています(Wang et al., 2022a))。LaMDAについては、異なる例示のランダムシャッフル順の5つのランダムシードにわたる平均結果を報告します。LaMDAの実験では、異なるシード間で大きなばらつきが見られなかったため、他のモデルについては単一の例示順序の結果を報告しています。 3-2. 結果
CoT (Chain-of-Thought)プロンプトの最も強力な結果はFigure4にまとめられており、各モデルコレクション、モデルサイズ、およびベンチマークごとのすべての実験結果は付録の表2に示されています。ここから3つの重要なポイントがあります。 https://scrapbox.io/files/659f705bbf774800220a6b46.png
まず、Figure4は、思考の連鎖プロンプトがモデルの大きさに影響を受ける能力であることを示しています。つまり、小規模なモデルでは思考の連鎖プロンプトはパフォーマンスに肯定的な影響を与えず、約100Bパラメーターのモデルで使用された場合にのみパフォーマンス向上をもたらします。我々は、小規模なモデルでは流暢だが非論理的な思考の連鎖を生成し、標準的なプロンプトよりも低いパフォーマンスにつながることを質的に見つけました。
第二に、思考の連鎖プロンプトは、より複雑な問題に対して大きなパフォーマンス向上を示します。例えば、最もベースラインのパフォーマンスが低いGSM8Kにおいて、最大のGPTおよびPaLMモデルでパフォーマンスが2倍以上に向上しました。一方、SingleOp(MAWPSの最も簡単なサブセットで、一つのステップで解決できる)では、パフォーマンスの向上は否定的であるか非常に小さいものでした。
https://scrapbox.io/files/659f7337b5b45d0022731432.png
第三に、GPT-3 175BおよびPaLM 540Bを用いた思考の連鎖プロンプトは、一般的にラベル付けされたトレーニングデータセットでタスク固有のモデルを微調整する以前の最先端と比較して好ましい結果を示します。Figure.4は、PaLM 540BがGSM8K、SVAMP、およびMAWPSで新しい最先端を達成するために思考の連鎖プロンプトを使用する方法を示しています(ただし、SVAMPに関しては標準的なプロンプトですでに以前の最良を超えていることに注意)。他の2つのデータセット、AQuAとASDivでは、思考の連鎖プロンプトを使用したPaLMが最先端から2%以内に達しました。
思考の連鎖プロンプトがなぜ機能するのかをより深く理解するために、我々はLaMDA 137Bによって生成された思考の連鎖を手動で調査しました。GSM8Kの50個のランダムな例でモデルが正しい最終回答を返した場合、生成された思考の連鎖はすべて、正解に偶然たどり着いた2つを除いて、論理的かつ数学的に正しかったです。また、誤った回答を出した50個のランダムなサンプルもランダムに調査しました。この分析の要約は、思考の連鎖の46%が、マイナーな間違い(計算機の誤り、記号マッピングの誤り、または1つの推論ステップが欠けている)を除いてほぼ正しく、残りの54%は意味理解または整合性において大きな間違いがあることでした。スケールアップによって思考の連鎖推論能力がどのように改善されるかを小さな洞察として、我々はPaLM 62Bによって行われたエラーと、それらのエラーがPaLM 540Bへのスケールアップによって修正されたかを同様に分析しました。要約すると、PaLMを540Bにスケールアップすることで、62Bモデルの1ステップ欠けているエラーや意味理解のエラーの大部分が修正されることです。
思考の連鎖プロンプトを使用して得られた利点は、同じパフォーマンスの向上が他のタイプのプロンプトを介しても提供されるかどうかという疑問があります。Figure.5は、以下に説明する思考の連鎖の3つのバリエーションに関するアブレーション研究を示しています。
https://scrapbox.io/files/659f7c8d0df3070024495740.png
方程式のみ。
思考の連鎖プロンプトが役立つ理由の1つは、評価されるべき数学方程式を生成するためであり、そのために我々はモデルが回答を出す前に数学方程式のみを出力するようプロンプトされるバリエーションをテストしました。Figure.5は、方程式のみのプロンプトはGSM8Kにはあまり役立たないことを示しています。これは、GSM8Kの質問の意味論が、思考の連鎖における自然言語の推論ステップなしに方程式を直接翻訳するには難しすぎることを意味しています。ただし、1ステップまたは2ステップの問題のデータセットでは、質問から方程式を容易に導き出すことができるため、方程式のみのプロンプトがパフォーマンスを向上させることが分かります 計算量のみ
別の直感は、思考の連鎖がモデルに問題が難しい場合により多くの計算(つまり、中間トークン)を費やすことを可能にするということです。思考の連鎖推論から変数計算の効果を分離するために、我々は問題を解決するために必要な方程式の文字数に等しいドット(. . .)のみのシーケンスを出力するようにモデルにプロンプトする設定をテストしました。このバリエーションはベースラインとほぼ同じパフォーマンスを示し、これは変数計算自体が思考の連鎖プロンプトの成功の理由ではないことを示唆しており、自然言語を介して中間ステップを表現することからの有用性があるように見えます。
回答後の思考の連鎖
思考の連鎖プロンプトの別の潜在的な利点は、そのようなプロンプトによってモデルが事前トレーニング中に獲得した関連する知識により良くアクセスできるようになることかもしれません。そのため、我々は回答の後にのみ思考の連鎖プロンプトが与えられる別の設定をテストし、モデルが最終回答を出すために生成された思考の連鎖に実際に依存しているかどうかを分離します。このバリエーションはベースラインとほぼ同じパフォーマンスを示し、これは思考の連鎖に具体化された逐次的な推論が、単に知識を活性化すること以上の理由で有用であることを示唆しています。
3-4. 頑丈なCoT
プロンプトアプローチにおいては、例示への感度が重要な考慮事項です。たとえば、Few-Shotの例示の順序を変えるだけで、GPT-3のSST-2における精度がほぼ偶然(54.3%)からほぼ最先端(93.4%)の範囲に変動することがあります。この最後の小節では、異なるアノテーターによって書かれた思考の連鎖への堅牢性を評価します。上記の結果に加えて、アノテーターAによって書かれた思考の連鎖を使用したものに加え、この論文の他の2人の共著者(アノテーターBとC)が、同じ少数ショットの例示に対して独立して思考の連鎖を書きました。アノテーターAは、Cobbe et al.(2021)で与えられた解決策のスタイルに従って、もともとのものよりも簡潔な別の思考の連鎖も書きました。 Figure.6は、LaMDA 137BによるGSM8KとMAWPSでのこれらの結果を示しています。異なる思考の連鎖アノテーションの間にばらつきがあるのは予想されることですが(例示ベースのプロンプトを使用する場合、Le Scao and Rush, 2021; Reynolds and McDonell, 2021; Zhao et al., 2021)、すべての思考の連鎖プロンプトセットが標準ベースラインを大きな差で上回っています。この結果は、思考の連鎖の成功が特定の言語スタイルに依存しないことを意味しています。
https://scrapbox.io/files/659f7d8b13691f002545d37e.png
成功した思考の連鎖プロンプトが他の例示セットで機能することを確認するために、我々はまたGSM8Kトレーニングセットからランダムにサンプリングされた8つの例示の3セットで実験を行いました。このデータセットの例にはすでに思考の連鎖のような推論ステップが含まれていました。Figure.6は、これらのプロンプトが手書きの例示と同様にパフォーマンスを示し、また標準的なプロンプトを大幅に上回っていることを示しています。
アノテーターへの堅牢性、独立して書かれた思考の連鎖、異なる例示、さまざまな言語モデルに加えて、我々はまた、算数推論のための思考の連鎖プロンプトが、異なる例示の順序や例示の数の変化に対しても堅牢であることを見出しました。
4. 常識的推論
思考の連鎖は特に数学の文章問題に適していますが、言語ベースの性質により、一般的な背景知識のもとで物理的および人間の相互作用について推論することを含む、幅広いクラスの常識的推論問題にも適用可能です。常識的推論は、世界とのやり取りにおいて重要であり、現在の自然言語理解システムではまだ達成されていないものです。
ベンチマーク。
私たちは、さまざまな種類の常識的推論をカバーする5つのデータセットを考慮します。人気のあるCSQAは、事前の知識をしばしば必要とする複雑なセマンティクスを含む世界についての常識的な質問をします。StrategyQAは、質問に答えるための複数ステップの戦略を推論するようモデルに要求します。BIG-benchプロジェクトからの2つの専門的な評価セットを選びました:与えられたコンテキストから日付を推測することを含む「Date Understanding」、スポーツに関連する文が妥当か否かを決定する「Sports Understanding」。最後に、SayCanデータセットは、自然言語の指示を離散的なセットからロボットのアクションのシーケンスにマッピングすることを含みます。Figure3は、すべてのデータセットに対する思考の連鎖の注釈付きの例を示しています。 https://scrapbox.io/files/659f80525f2c6200247e9b5d.png
プロンプト
前のセクションと同じ実験セットアップに従います。CSQAとStrategyQAについては、トレーニングセットからランダムに選んだ例を選び、それらのために手動で思考の連鎖を構成し、Few-Shotの実例として使用しました。2つのBIG-benchタスクにはトレーニングセットがないため、評価セットの最初の10の例をFew-Shotの実例として選択し、残りの評価セットについて数値を報告します。SayCanについては、Ahn et al.(2022)で使用されたトレーニングセットから6つの例を使用し、また手動で思考の連鎖を構成しました。 結果
Figure7は、これらの結果をPaLMについて強調しています(LaMDA、GPT-3、および異なるモデルスケールの完全な結果は表4に示されています)。すべてのタスクにおいて、モデルサイズを拡大することで、標準的なプロンプトのパフォーマンスが向上しました。思考の連鎖を用いたプロンプトはさらなる利得をもたらし、PaLM 540Bで最も大きな改善が見られました。思考の連鎖プロンプトを用いたPaLM 540Bは、StrategyQAで既存の最高記録を上回る強力なパフォーマンスを実現しました(75.6%対69.4%)、またSports Understandingでは無支援のスポーツ愛好家を上回りました(95.4%対84%)。これらの結果は、思考の連鎖プロンプトが、常識的推論能力の範囲を要求するタスクにおいてもパフォーマンスを向上させることができることを示しています(ただし、CSQAでは効果が最小であったことに注意してください)。 https://scrapbox.io/files/659f82f013691f0025469c25.png
https://scrapbox.io/files/65c427592abe370026b8ecba.png
5. 記号的推論
我々の最終的な実験評価では、人間にとっては単純だが言語モデルにとっては難しいかもしれない、記号的推論を考慮します。私たちは、CoT (Chain-of-Thought)プロンプトが、標準的なプロンプト設定では難しい言語モデルの記号的推論タスクを可能にするだけでなく、数少ない例示の中で見られたものより長い推論時の入力への長さの一般化も促進することを示します。 タスク
以下の2つの簡単なのタスクを使用します。
最後の文字の連結:このタスクは、名前の中の単語の最後の文字を連結するようにモデルに要求します(例:「Amy Brown」→「yn」)。これは、考えの連鎖なしに言語モデルがすでに実行できる最初の文字の連結よりも難しいバージョンです。我々は、namecensus.comから上位1000の名前と姓からランダムに名前を連結してフルネームを生成します。
コインフリップ:このタスクは、人々がコインをひっくり返すかどうかによって、コインがまだ表向きかどうかをモデルに答えさせます(例:「コインは表向きです。フィービーがコインをひっくり返します。オズワルドはコインをひっくり返しません。コインはまだ表向きですか?」→「いいえ」)。
これらの記号的推論タスクの構築は明確に定義されているため、各タスクについて、トレーニング/数少ない例示と同じステップ数のインドメインテストセットと、例示よりも多くのステップを持つアウトオブドメイン(OOD)テストセットを考慮します。最後の文字の連結の場合、モデルは2つの単語の名前の例示のみを見て、その後、3つと4つの単語の名前で最後の文字の連結を実行します。コインフリップタスクでも同じことを行います。私たちの実験セットアップは、前の2つのセクションと同じ方法とモデルを使用します。再び、各タスクの数少ない例示のために考えの連鎖を手動で作成します。これらはFigure.3に記載されています。 結果
これらのインドメインとOODの評価の結果は、PaLMの場合はFigure. 8に、LaMDAの場合は付録の表5に示されています。PaLM 540Bでは、考えの連鎖プロンプトにより、ほぼ100%の解決率が得られます(標準的なプロンプトでもPaLM 540でコインフリップは解決されますが、LaMDA 137Bではそうではありません)。これらのインドメイン評価は「簡単なタスク」であり、完璧な解決構造は数少ない例示での考えの連鎖によってすでに提供されています。すべてモデルが行うのは、テスト時の例で新しいシンボルを使って同じステップを繰り返すことです。それでも、小さなモデルは失敗します。これらの3つのタスクにおいて、未見のシンボルに対する抽象的な操作を実行する能力は、100Bモデルパラメータのスケールでのみ現れます。 https://scrapbox.io/files/659f8928f6b37100222ba54f.png
https://scrapbox.io/files/659f8a6a95a6d800223ff293.png
OOD評価に関しては、標準的なプロンプトでは両タスクともに失敗します。考えの連鎖プロンプトを使うと、言語モデルは上昇するスケーリング曲線を達成します(ただし、パフォーマンスはインドメイン設定より低いです)。したがって、考えの連鎖プロンプトは、十分なスケールの言語モデルにとって、見たことのある考えの連鎖を超える長さの一般化を促進します。 討論
我々は、大規模言語モデルにおいて複数ステップの推論行動を引き出すための単純なメカニズムとしてCoT (Chain-of-Thought)プロンプトを探求しました。まず、算数推論におけるパフォーマンスを大幅に向上させ、アブレーションや異なる注釈者、例示、および言語モデルに対しても強力な改善をもたらすことが分かりました(セクション3)。次に、8つの実験では、常識推論において、考えの連鎖推論の言語的性質が一般的に適用可能であることを強調しました(セクション4)。最後に、記号的推論について、考えの連鎖プロンプトがより長いシーケンス長へのOOD一般化を促進することを示しました(セクション5)。すべての実験では、考えの連鎖推論は、市販の言語モデルにプロンプトするだけで引き出されます。この論文を書く過程で言語モデルをファインチューニングすることはありませんでした。 モデルスケールの結果としての考えの連鎖推論の出現は、一貫したテーマでした(Wei et al., 2022b)。標準的なプロンプトが平坦なスケーリング曲線を持つ多くの推論タスクにおいて、考えの連鎖プロンプトは劇的に増加するスケーリング曲線につながります。考えの連鎖プロンプトは、大規模言語モデルが成功裏に実行できるタスクのセットを拡大するように見えます。言い換えれば、我々の研究は、標準的なプロンプトが大規模言語モデルの能力の下限を提供するだけであることを強調しています。この観察は、それが解決するよりも多くの疑問を提起する可能性があります。例えば、モデルスケールのさらなる増加によって、推論能力がどれだけ向上すると期待できるのか?他のプロンプト方法は、言語モデルが解決できるタスクの範囲をどのように拡大する可能性があるのか?
限界について言えば、考えの連鎖が人間の推論者の思考過程を模倣しているとしても、ニューラルネットワークが実際に「推論」を行っているかどうかについては答えられず、これはオープンな疑問として残ります。次に、数少ない例示で考えの連鎖を手動で増強するコストは最小限ですが、ファインチューニングに対してはそのような注釈コストが禁じ得ないかもしれません(ただし、これは合成データ生成やゼロショット一般化によって克服される可能性があります)。第三に、正しい推論パスが保証されていないため、正しい答えだけでなく間違った答えも導かれる可能性があります。言語モデルの事実上の生成を改善することは、将来の研究のためのオープンな方向性です。最後に、大規模モデルスケールでのみ考えの連鎖推論の出現は、現実世界のアプリケーションで提供するのに費用がかかります。さらなる研究は、より小さいモデルで推論を誘発する方法を探求できます。 結論
私たちは、考えの連鎖プロンプトを、言語モデルにおける推論を強化するための単純で幅広く適用可能な方法として探求しました。算数、記号的、常識推論に関する実験を通じて、考えの連鎖推論は、モデルスケールの緊急的な特性であり、十分に大きな言語モデルが、それ以外では平坦なスケーリング曲線を持つ推論タスクを実行できるようにすることがわかりました。言語モデルが実行できる推論タスクの範囲を広げることは、推論に関する言語ベースのアプローチに関するさらなる研究を刺激することを期待します。